AI产业链地图·知识库 NVIDIA Triton Inference Server · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/NVIDIA Triton Inference Server
更新 2026·06·17
概念 技术 / 术语

NVIDIA Triton Inference Server

Triton Inference Server · Triton

Triton Inference Server 是一个开源的推理服务化框架,支持多种深度学习框架的模型部署,提供企业级推理服务能力(动态批处理、模型集成、多模型并发、HTTP/gRPC API、监控)。

NVIDIA Triton Infe CONCEPT · 概念
首次提出
2018
关键参与方
[[NVIDIA]]
反向引用
3 处 · 来自 2
归属 推理服务模型服务化NVIDIA第四层

NVIDIA Triton Inference Server

NVIDIA 推出的开源推理服务框架;支持 NVIDIA TensorRT-LLM、PyTorch、TensorFlow、ONNX 等多种模型格式;企业级 GPU 推理服务主导

定义

Triton Inference Server 是一个开源的推理服务化框架,支持多种深度学习框架的模型部署,提供企业级推理服务能力(动态批处理、模型集成、多模型并发、HTTP/gRPC API、监控)。

核心能力

  • 多框架支持:TensorRT / PyTorch / TensorFlow / ONNX / OpenVINO 等
  • 动态批处理(Dynamic Batching):自动拼批以提升 GPU 利用率
  • 模型集成(Model Ensemble):多个模型组合成单一推理 pipeline
  • 多模型并发:多个模型在同一 GPU 共享算力
  • HTTP / gRPC API
  • 指标监控 + 可观测性
  • Python / C++ / Java / Go 客户端 SDK

主要玩家

  • NVIDIA(开发与维护)
  • 主要部署场景:金融、医疗、零售、汽车智能化等需要多模型协同推理的企业场景

在 AI 产业链中的角色

  • 企业级 GPU 推理服务主导:在需要多模型协同推理的复杂场景中优势明显
  • NVIDIA TensorRT-LLM 配合:TensorRT-LLM 负责优化,Triton 负责服务化
  • MaaS 基础设施:是众多云厂商和 AI 公司构建模型服务平台的底层框架

演进历史

  • 2018 首发(彼时名为 TensorRT Inference Server)
  • 2020 改名 Triton Inference Server,开源
  • 2024 与 TensorRT-LLM、NIM (NVIDIA Inference Microservices) 深度集成
  • 2025 适配 Blackwell GPU 架构

相关概念

∈ belongs_to::4-04-模型部署与优化